百度如何用时空大数据量化中国?
点击图片上方蓝色字体“慧天地”即可订阅
(更多精彩请留意文末推荐)
知识结构
时空大数据
应用案例
卫星遥感数据的国际应用:美国零售业务 、中国经济指数、石油库存、农业
百度怎么玩转时空大数据?诺基亚在苏州工厂倒闭、滴滴融资扩招、如何精准定位鬼城
穿越时空,玩转卫星遥感数据
互联网的发展正在改变太空行业。
在过去,发射一颗卫星,需要极高的成本,可能需要几亿美元。而随着微型卫星的兴起,这个行业正悄然发生改变。像美国的一家公司,已经发射了大概150颗微型卫星。
微型卫星的好处是基本上可以每天实时对全球实现7×24小时的监测,卫星遥感数据对经济走势的分析价值尤为巨大。尤其农业、房地产、港口贸易。
卫星遥感数据就是典型的时空大数据。简单来说,时空大数据(Spatial-temporal big data)就是典型的时间和空间有关联的数据。
能源交易走势分析
通过卫星的图像捕捉,数据科学家可以轻松的算出某些关键能源的储量变化。譬如用卫星图像捕捉到地球上某个国家、某个区域储存石油的储油罐的图片。数据科学家们能够根据图片识别出储油罐阴影面积的大小来算高度,进而通过这种方式算五可能的储油量的变化。通过这种方式可以实时监测全球储油量的变化,对全球石油交易走势进行预判。
区域经济发展预测
同样,利用卫星遥感数据,还能对区域经济发展进行预测。以世界银行为例,世界银行为非洲不发达国家提供贷款,它面临的问题是:贷款的额度、利率等,由于某些国家长期处于战乱,世界银行无法直观的获取这个国家的准确信息。通过卫星图像数据,譬如建筑物覆盖程度,街区建设状况等数据,对该地区作出较为准确的判断。
此类卫星遥感数据目前已经在世界银行进入到应用阶段,斯坦福大学建立了一套方法,根据卫星图像来进行分析来为世界银行提供服务。
监测零售指数
通过卫星遥感数据的应用,还可以监测零售行业的动态。以美国为例,美国超市大都建在郊区,购物者在去往商场购物之时,会把车停在商场的旁边。通过卫星图像和机器学习的方式,识别每天商场旁边车流数据,既可测算出来每天有多少人来超市,对零售数据做出预测。
百度怎么玩转时空大数据?
预测诺基亚苏州园区倒闭、滴滴融资、鬼城等等,百度做的工作是用卫星图像和结合其他的数据去识别空间区域的功能。
吴海山的研究方向就是“时空数据挖掘”,他曾经在百度领导一个名为MobiMetrics的研究项目。通俗来讲,MobiMetrics的意思就是说,就是用移动设备产生的大数据去测量整个社会系统。
MobiMetrics尝试通过时空大数据量化世界上最为复杂的系统之一——中国。他们先后开展了中国鬼城量化分析与检测、基于外滩踩踏事件分析的人群实时预警系统、中国贫困分析和精准扶贫研究、数据驱动的宏观经济量化和对冲投资决策等。
测算区域劳动力变化
在吴海山看来,时空数据挖掘的工作至关重要,透过它们就可能看到一个更加真实的中国。
以下图为例,左侧是卫星图像,结合手机移动数据定位,可以对这一区域进行识别,譬如工厂、写字楼、银行等。
以下是上海地图,通过卫星遥感数据结合手机移动数据算法得出,蓝色区域代表工厂,红色区域是商场写字楼。
在拥有这两个定位数据之后,再结合用户的线下移动规律,利用有机算法,得出用户的消费习惯、居住地,所有的信息聚合,可以观测到某个区域劳动力的实时变化。
对证券和投行的分析师来说,调研工厂必须去往实地考察,但在卫星遥感数据的辅助之下,分析师们可以算出有多少人在此工作,他们不需要再去实地了。
上图A是东莞一个鞋厂,B是苏州一个诺基亚在苏州的园区,从2015年开始这两个园区劳动力人口发生下降,东莞的鞋厂倒闭了,苏州园区也没有人上班了。
右下方则是相反的情况,大量劳动力涌入该区域工作,或者说滴滴融资完之后开始大规模的扩张,会发现劳动力也有大幅度提升。通过这种方式可以实时来看全国的各个工业园区劳动力的变化。
衡量就业、消费趋势
把劳动力数量聚合起来,可以观测中国范围内宏观的就业趋势的变化。失业率是衡量宏观经济的一个重要指标。按照政府公布的数据,中国每年的失业率在4%左右。事实果真如此?我们的数据发现,结果并非如此,实际情况比4%更糟糕,数据发现,就业园区就业的趋势其实整体是下滑的。
不过,与整体就业率下滑相背离的是,新兴工业园区,尤其是高科技园区、生物制药园区,二者的就业率呈上升趋势。
同理,还可以对大型购物中心的监测,来判断全国线下消费趋势。上图是全国四千个大型商业中心的数据,通过卫星数据,识别了商场的边界,再通过定位数据识别消费人数。把两者聚合,可以看到全国范围线下整体消费趋势。
房地产投资
房地产投资是百度玩转时空大数据的另一个应用层面。
中国的楼盘空置是一种常见现象。在媒体的报道中,常会出现鬼城这样的概念,但是,某个城市的空置率如何?鬼城的数据如何?我们很难在媒体报道中看到。
通过用户手机定位数据以及卫星图像的数据,再通过机器学习和人工智能算法识别,我们给出了九个空城特别多的区域。
譬如鬼城鄂尔多斯,在以前的概念里,只知道他是一个鬼城,但是空在哪里,并不明晰,通过下图,我们可以一目了然。
很有意思的是,数据发现,鄂尔多斯的新城区,是整个城市空置率最高的区域(左下角)。此外,右上角的主城区郊区区域,空置楼盘同样很多。
当然,由于成因不同,“鬼城”并非一成不变。随着当地经济的发展和政府的适当引导,有些“鬼城”也能变活。例如郑东新区,如今已经通了地铁,居民也在增加,这些都在百度时空大数据的监测中。
数据骑士
吴海山
现任合一创投的首席数据科学家。曾任百度BDL(Big Data Lab,即百度研究院大数据实验室)项目负责人,一直致力于百度时空大数据研究,他负责的中国鬼城量化研究项目被美国权威杂志《麻省理工科技评论》评为2015年度最佳研究之一。
来源:东山樵(版权归原作者及刊载媒体所有)
(微信号:zn846546896)为好友。
欢迎大家推荐精品稿件。
投稿邮箱:geomaticshtd@163.com。
推荐
点击下文直接阅读
编辑:郭晓非
审核:王怡波
指导:万剑华教授(微信号wjh18266613129)